大家安安,今天要和大家聊聊什麼是資料清洗。
(Powered By Microsoft Designer)
資料清洗非常重要,是資料分析前一定要做的事情,有了它,才不會發生 Garbage in, garbage out
的悲劇。
在進行資料分析以及使用收集的資料之前,我們必須要確定資料是正確的。
也就是說,要對資料進行前處理,而資料前處理的第一步就是「資料清理」,需要先將資料中的有問題的資料處理掉,把資料中有缺失的值補充完整或直接刪除資料、識別或刪除極端值並解決資料的不一致性。
而要如何做資料清理?這裡有四點資料清理的重點,分享給你
品質是指資料是否符合我們的需求和期望,例如是否有缺失值、異常值、格式不一致等問題。
在 ETL 的程式中,我們也需要過濾出有問題的資料,避免這些髒資料被送到用來分析的資料倉儲中。
缺失值是指資料中沒有填寫或記錄的部分,它可能會影響我們的分析結果和模型效能。
通常我們都可以找到缺失的部分,但如果資料無法補齊,那我就會選擇把這筆資料標記下來人工處理,例如沒有填入郵遞區號的地址、沒有加上國碼的電話。
異常值是指資料中與其他觀測明顯不同或不合理的部分。
假設要分析一家商店的銷售數據,你發現某一天的銷售額遠高於其他日子,這可能是一個異常值,可能是由於特殊活動或錯誤記錄導致的。
這種特殊的資料會需要特殊的處理,如果是錯誤的紀錄當然要刪除 (大部分是測試資料忘記刪掉造成)
不一致性是指資料中存在著不同格式、單位、編碼或命名規則等問題。
尤其在跨國系統中超常發生,因為有著不同的語言、單位和命名規則。
為了做分析,最好是轉換成同一個單位與命名規則,包含了標點符號。
正確性是指資料是否反映了真實的情況和現象,例如是否有邏輯錯誤、違反常識等問題。
例如有個使用者的生日是 2123 年 (未來的日期,代表還沒出生)。
資料清洗非常重要,是資料前處理的第一步,有四個清洗的重點,包含 確認資料的品質 : 找出有問題的資料
、處理缺失值與異常值 : 對有問題的資料做處理
、處理不一致性 : 讓內容都長的一樣
和 驗證資料的正確性 : 把不合理的資料挑出來
。
AWS - What Is Data Cleansing
ALPHAcamp - Data Cleaning:資料清洗的方法與重要性
DATA + DESIGN / 資料 + 設計 - 第八章 : Data Cleaning
Wikipedia - Data Cleansing